自主驾驶是一项复杂而具有挑战性的任务,旨在通过场景和推理来实现安全的运动计划。最近,通过增强的场景理解,几个关键问题,包括缺乏推理,低概括性能和长尾场景,但仍需要戴着几个关键问题,但仍需要进行一些关键问题。在本文中,我们提出了VLP,这是一个新颖的视力 - 语言规划框架,利用语言模式来弥合语言理解与自动驾驶之间的差距。VLP通过加强源内存基础和自动驾驶汽车的上下文理解来增强自主驾驶系统。vlp通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,分别在平均L2错误和碰撞率方面实现了35.9%和60.5%的端到端规划表演。此外,在面对新的城市环境时,VLP在挑战性的长尾方案和强大的概括能力方面表现出改善的性能。
![arxiv:2401.05577V4 [CS.CV] 2024年11月23日PDF文件第1页](/bimg/0/0ca50da6a504b9982605b20a16318338ed144417.webp)
![arxiv:2401.05577V4 [CS.CV] 2024年11月23日PDF文件第2页](/bimg/3/300dbdea489ba6af0f2e2cf5b56b469682026ecb.webp)
![arxiv:2401.05577V4 [CS.CV] 2024年11月23日PDF文件第3页](/bimg/1/1556813b2f8934cb37e5c82347de5373c9fcc7d6.webp)
![arxiv:2401.05577V4 [CS.CV] 2024年11月23日PDF文件第4页](/bimg/a/a325f8c366a5efdf1d01726838b0c29b8b1e1dd7.webp)
![arxiv:2401.05577V4 [CS.CV] 2024年11月23日PDF文件第5页](/bimg/f/f9ccb29bbf3b187d09425d1da22b8b9e78222274.webp)
